决策智能作为人工智能赋能复杂系统的核心环节,旨在使机器能够自主感知、推理并执行最优策略,已成为推动无人系统、推荐平台与机器人智能化发展的关键引擎。现有决策系统在迈向高阶自主的过程中,面临三大核心瓶颈:长期价值与短期收益的权衡困境,个体智能与群体协同的整合难题,以及模型效能与数据效率的固有矛盾。
中国科学院重庆绿色智能技术研究院研究团队围绕长期可靠决策、多体协同决策与高质量数据蒸馏等提出了创新性的解决方案,三篇相关论文被人工智能国际会议AAAI
2026录用。
交互式推荐系统在提供个性化体验的同时,也面临长期公平性失衡的挑战:系统往往过度偏向热门内容,冷门或新内容难以获得曝光。这种“流行度偏见”在长期运行中不断累积,最终破坏内容生态的多样性与可持续发展。
针对这一问题,研究团队提出数字内容生命周期感知的分层强化学习框架(LHRL),实现了对推荐系统“短期用户满意度”与“长期生态公平性”的动态平衡。实验结果显示,该机制可在保持用户满意度的同时,将长期用户参与度提升超过10%,显著改善了内容分布公平性。该研究揭示了生命周期因素在推荐公平性调控中的关键作用,为构建可持续、公平、可信的推荐生态提供了新的决策范式。
在复杂物理环境中实现多机器人协同作业,是群体智能研究的重要方向。当前系统长期受制于“通信与协同”的双重约束:集中式决策需要传输大量感知数据,造成通信延迟;而完全分布式决策又难以保证全局协调精度。
研究团队提出PIPHEN分布式物理认知与控制框架,通过从“数据通信”向“语义通信”转变,显著提升多机器人协同效率。实验结果表明,该框架可将协同决策延迟从315毫秒降低至76毫秒,同时提升任务成功率和系统稳定性。该研究为无人系统在复杂动态场景中的高效、可靠、可解释协作提供了全新技术路径。
视觉—语言—动作(VLA)模型是支撑机器人理解世界与执行复杂任务的关键技术。此类模型的训练高度依赖海量数据,带来巨大的计算与存储开销,使得高性能模型难以在资源受限的场景中部署。现有“以模型为中心”的优化方式,如模型压缩与蒸馏,虽能减轻部分负担,却未从数据层面根治效率瓶颈。
研究团队提出FT-NCFM影响力感知数据蒸馏框架,开辟“以数据为中心”的高效模型训练新方向。该框架使模型能够以更少的数据学习到更有效的知识。实验证明,仅使用5%的合成数据即可恢复原模型90%以上的性能,训练成本降低超过75%。该成果为在边缘设备上部署大规模智能模型提供了高效、经济且通用的数据优化范式。
以上相关研究工作得到国家自然科学基金、重庆市自然科学基金、重庆市技术创新与发展重大专项等的支持。
【关闭窗口】